W09914737 



Publication Title: 

METHOD FOR DETECTING SPEECH ACTIVITY 



Abstract: 

Abstract ofW09914737 

The invention concerns a method whereby the digital speech signal (s) 
processed by successive frames is subjected to noise suppression taking into 
account noise estimations included in the signal, updated for each frame based 
on at least one degree of speech activity ( gamma n,i). The method consists in 
carrying out an a priori noise suppression of each frame speech signal on the 
basis of the noise estimations obtained while processing at least one previous 
frame, and analysing the energy variations of the signal which has been 
subjected to an a priori noise suppression to detect the degree of speech activity 
of said frame. 

Data supplied from the esp@cenet database - Worldwide b59 



Courtesy of http://v3.espacenet.com 



This Patent PDF Generated by Patent Fetcher(TM), a service of Stroke of Color, Inc. 



ORGANISATION MONDIALE DE LA PROPRIETE INTELLECTUELLE 
Bureau international 




PCX 

DEMANDE INTERNATIONALE PUBLIEE EN VERTU DU TRAITE DE COOPERATION EN MATIERE DE BREVETS (PCT) 



(51) Classification internationale des brevets ^ 
GIOL 3/00 



Al 



(11) Num^ro de publication internationale: WO 99A4737 
(43) Date de publication Internationale: 25 mars 1999 (25.03.99) 



(21) Num^ro de la demande internationale: PCT/FR98/01979 

(22) Date de d^pdt international: 16 septembre 1998 (16.09.98) 



(30) Donndes relatives h la priorit^: 

97/1 1640 18 septembre 1997 (18.09.97) FR 



(71) D^posant (pour tous les Etats disignis sauf US): MATRA 

NORTEL COMMUNICATIONS [FR/FR]; 50, rue du 
President Sadate. F-29100 Quimper (FR). 

(72) Inventeurs; et 

(75) Inventeurs/D^posants (US seulement): LOCKWOOD, Philip 
[FR/FR]; 22, rue des Aulnes, F-95490 Vaureal (FR). 
LUBIARZ, St6phane [FR/FR]; 38, me d'Ennery, F-95520 
Osny (FR). 

(74) Mandataires: LOISEL, Bertrand etc.; Cabinet Plasseraud, 84, 
rue d*Amsterdam, F-75440 Paris Cedex 09 (FR). 



(81) Etats d&ignds: AL. AM, AT, AU, AZ, BA, BB, BG, BR. 
BY. CA, CH, CN. CU, CZ, DE, DK, EE, ES, FI, GB, GE, 
GH, GM, HR. HU, ID, IL, IS. JP, KE, KG, KP, KR, KZ, 
LC, LK, LR, LS, LT. LU. LV, MD, MG, MK, MN, MW, 
MX, NO, NZ, PL, PT, RO, RU. SD, SE, SG, SI, SK, SL, 
TJ, TM. TR, TT. UA. UG, US, UZ. VN, YU, ZW, brevet 
ARIPO (GH, GM, KE. LS, MW. SD. SZ, UG, ZW), brevet 
eurasien (AM. AZ, BY, KG, KZ, MD, RU, TJ, TM), brevet 
europ^en (AT. BE, CH. CY, DE. DK, ES, FI, FR, GB, GR, 
IE, IT. LU. MC. NL, PT, SE), brevet OAPI (BF. BJ, CF. 
CG. CI, CM. GA. GN. GW. ML. MR, NE. SN. TD, TG). 



Publi^e 



Avec rapport de recherche internationale. 



(54) Title: METHOD FOR DETECTING SPEECH ACTIVITY 
(54) Titre: PROCEDE DE DETECTION D'ACTIVITE VOCALE 
(57) Abstract 



The invention concerns a method whereby the 
digital speech signal (s) processed by successive frames 
is subjected to noise suppression talcing into account 
noise estimations included in the signal, updated for 
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PROCEDE DE DETECTION D^ACTIVITE VOCALE 

La presente invention concerne les techniques 
numeriques de traitement de signaux de parole. Elle 
concerne plus particulierement les techniques faisant 
5 appel a une detection d'activite vocale afin d'effectuer 
des traitements differencies selon que le signal supporte 
ou non une activite vocale. 

Les techniques numeriques en question relevent de 
domaines varies : codage de la parole pour la transmission 

10 ou le stockage, reconnaissance de la parole, diminution du 
bruit/ annulation d'echo,.. 

Les methodes de detection d' activite vocale ont 
pour principale difficulty la distinction entre 1' activite 
vocale et le bruit qui 1' accompagne . Le recours a une 

15 technique de d^bruitage classique ne permet pas de traiter 
cette difficulte, puisque ces techniques font elles-memes 
appel a des estimations du bruit qui dependent du degre 
d' activite vocale du signal. 

Un but principal de la presente invention est 

20 d'ameliorer la robustesse au bruit des methodes de 
detection d' activite vocale, 

L' invention propose ainsi un precede de detection 
d' activite vocale dans un signal de parole numerique 
traite par trames successives, dans lequel on soumet le 

25 signal de parole a un debruitage en tenant compte 
d' estimations du bruit compris dans le signal, mises a 
jour pour chaque trame d'une maniere dependante d' au moins 
un degre d' activite vocale determine pour ladite trame. 
Selonl' invention, on precede a un debruitage a priori du 

30 signal de parole de chaque trame sur la base d' estimations 
du bruit obtenues lors du traitement d'au moins une trame 
precedente, et on analyse les variations d'energie du 
signal debruite a priori pour detecter le degre d' activite 
vocale de ladite trame. 

35 Le fait de proc6der a la detection d' activity 

vocale (selon une methode qui peut generalement Stre toute 
methode connue) sur la base d'un signal debruite a priori 
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ameliore sensiblement les performances de cette detection 
lorsque le bruit environnant est relativement important. 

Dans la suite de la presente description, on 
illustrera le precede de detection d'activite vocale selon 
5 1' invention dans un systeme de debruitage d'un signal de 
parole. On comprendra que ce precede peut trouver des 
applications dans de nombreux autres types de traitement 
numerique de la parole dans lesquels on souhaite disposer 
d'une information sur le degre d'activite vocale du signal 

10 traite : codage, reconnaissance, annulation d'echo... 

D' autres particularites et avantages de la 
presente invention apparaitront dans la description ci- 
apres d'exemples de realisation non limitatifs, en 
reference aux dessins annexes, dans lesquels : 

1^ ~ la figure 1 est un schema synoptique d'un 

systeme de debruitage mettant en ceuvre la presente 
invention ; 

- les figures 2 et 3 sont des organigrammes de 
procedures utilisees par un detecteur d'activite vocale du 

20 systeme de la figure 1 ; 

- la figure 4 est un diagramme representant les 
etats d'un automate de detection d'activite vocale ; 

- la figure 5 est un graphique illustrant les 
variations d'un degre d'activite vocale ; 

25 - la figure 6 est un schema synoptique d'un module 

de surestimation du bruit du systeme de la figure 1 / 

- la figure 7 est un graphique illustrant le 
calcul d'une courbe de masquage ; et 

la figure 8 est un graphique illustrant 
30 1' exploitation des courbes de masquage dans le systeme de 
la figure 1. 

Le systeme de debruitage represents sur la figure 
1 traite un signal numerique de parole s. Un module de 
fenetrage 10 met ce signal s sous forme de fenetres ou 
35 trames successives, constituees chacune d'un norabre N 
d' echantillons de signal numerique. De facon classique, 
ces trames peuvent presenter des recouvrements mutuels. 
Dans la suite de la presente description, on considerera, 
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sans que ceci soit limitatif, que les trames sont 
constituees de N=256 echantillons a une frequence 
d' echantillonnage de 8 kHz, avec une ponderation de 

Hamming dans chaque fenetre, et des recouvrements de 50% 
5 entre fenetres consecutives . 

La trame de signal est transformee dans le domaine 
frequentiel par un module 11 appliquant un algorithme 
classique de transformee de Fourier rapide (TFR) pour 
calculer le module du spectre du signal. Le module 11 

.0 delivre alors un ensemble de N=256 composantes 
frequentielles du signal de parole, notees S ou n 

designe le nuitiero de la trame courante, et f une frequence 
du spectre discret. Du fait des proprietes des signaux 
numeriques dans le domaine frequentiel, seuls les N/2=128 

.5 premiers Echantillons sont utilises. 

Pour calculer les estimations du bruit contenu 
dans le signal s, on n' utilise pas la resolution 
frequentielle disponible en sortie de la transformee de 
Fourier rapide, mais une resolution plus faible, 

0 determinee par un nombre I de bandes de frequences 
couvrant la bande [0,Fg/2] du signal. Chaque bande i 

(l<i^I) s'etend entre une frequence inferieure f(i-l) et 
une frequence superieure f(i), avec f(0)=0, et f(I)=Fg/2. 
Ce decoupage en bandes de frequences peut etre uniforme 
5 (f (i)-f (i-l)=Fg/2I) . II peut egalement etre non uniforme 
(par exemple selon une echelle de barks) . Un module 12 
calcule les moyennes respectives des composantes 
spectrales S^^^ du signal de parole par bandes, par 
exemple par une ponderation uniforme telle que : 

° ^^'^ " m - fU-l) r ^ r^"'-^ 

f 6[f(i-l),f(i)[ 

Ce moyennage diminue les fluctuations entre les 
bandes en moyennant les contributions du bruit dans ces 
bandes, ce qui diminuera la variance de I'estiraateur de 
bruit. En outre, ce moyennage permet une forte diminution 
5 de la complexity du systeme. 
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Les composantes spectrales moyennees S^^ ^ sont 
adressees a un module 15 de detection d' activity vocale et 
a un module 16 d' estimation du bruit. Ces deux modules 15, 
16 fonctionnent conjointement, en ce sens que des degres 
d'activite vocale y^^^ mesures pour les differentes bandes 
par le module 15 sont utilises par le module 16 pour 
estimer I'energie a long terme du bruit dans les 
differentes bandes, tandis que ces estimations a long 
terme Bj^^^ sont utilisees par le module 15 pour proceder a 

un debruitage a priori du signal de parole dans les 
differentes bandes pour determiner les degres d'activite 
vocale Y^^^. 

Le fonctionnement des modules 15 et 16. peut 
correspondre aux organigrammes representes sur les figures 
15 2 et 3. 

Aux etapes 17 a 20, le module 15 procede au 
debruitage a priori du signal de parole dans les 
differentes bandes i pour la trame de signal n. Ce 
debruitage a priori est effectue selon un processus 
classique de soustraction spectrale non lineaire t partir 
d' estimations du bruit obtenues lors d'une ou plusieurs 
trames precedentes. A I'etape 17, le module 15 calcule, 
avec la resolution des bandes i, la reponse en frequence 
"Pn,i filtre de debruitage a priori, selon la formule : 

2^ ^Pn,i = (2) 

^n-i2,i 

ou il et t2 sont des retards exprimes en nombre de trames 
(Tl>l, t2>0), et a^^^ est un coefficient de surestimation 
du bruit dont la determination sera expliquee plus loin. 
Le retard t1 peut etre fixe (par exemple xl=l) ou variable. 
II est d'autant plus faible qu'on est confiant dans la 
detection d'activite vocale. 

Aux etapes 18 a 20, les composantes spectrales 



20 



30 
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Ep„ i sont calculees selon : 

ou Ppj_ est un coefficient de plancher proche de 0, servant 

classiquertient a eviter que le spectre du signal debruite 
5 prenne des valeurs negatives ou trop faibles qui 
provoqueraient un bruit musical, 

Les etapes 17 a 20 consistent done essentiellement 
a soustraire du spectre du signal une estimation, majoree 

par le coefficient oLj^-xi,!^ du spectre du bruit estime a 

10 priori. 

A I'etape 21, le module 15 calcule I'energie du 
signal debruite a priori dans les differentes bandes i 

pour la trame n : E^^^ - Ep^^^ . II calcule aussi une 

moyenne globale E^^^q de I'energie du signal debruite a 

15 priori, par une somme des energies par bande E_ 

Tif 1 

ponderee par les largeurs de ces bandes. Dans les 
notations ci-dessous, I'indice i=0 sera utilise pour 
designer la bande globale du signal. 

Aux etapes 22 et 23, le module 15 calcule, pour 
20 chaque bande i (0<i<I), une grandeur AE^ • representant 
la variation a court terme de I'energie du signal debruite 
dans la bande i, ainsi qu'une valeur a long terme E^^i de 
I'energie du signal debruite dans la bande i. La grandeur 
^^n, i P^^t etre calculee par une formule simplif iee de 

25 derivation : AE^ 

I'energie a long terme E^^i/ elle peut etre calculee a 
I'aide d' un facteur d'oubli Bl tel que 0<B1<1, a savoir 
^n,i = Bl . + (1-Bl) . E^^^ . 



^n-4,i ^ ^n-3,i ~ ^n-l,i " ^n,i 
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Apres avoir calcule les energies j_ du signal 

debruite, ses variations a court terme AE„ • et ses 

11/ 1 

valeurs a long terme Ej^^j_ de la maniere indiquee sur la 

figure 2, le module 15 calcule, pour chaque bande i 
5 (0<i<I), une valeur p^^ representative de 1' evolution de 

I'energie du signal debruite. Ce calcul est effectue aux 
etapes 25 ^ 36 de la figure 3, executees pour chaque bande 
i entre i=0 et i=I. Ce calcul fait appel a un estimateur a 
long terme de I'enveloppe du bruit baj^, a un estimateur 

10 interne bi^ et a un compteur de trames bruitees bj_. 

A I'etape 25, la grandeur AE_ • est comoaree a un 

n, i 

seuil el. Si le seuil el n'est pas atteint, le compteur b^ 

est incremente d'une unite a I'etape 26. A I'etape 27, 
1' estimateur a long terme ba^^ est compare a la valeur de 

15 I'energie lissee £^,1 • Si ba^>En^i, 1' estimateur baj_ est 

pris egal a la valeur lissee E^^i a I'etape 28, et le 

compteur est remis a zero. La grandeur pj_, qui est 

prise egale au rapport ^^j_/^n,i (etape 36), est alors 
egale a 1. 

20 Si 1' etape 27 montre que ba^<En,i/ le compteur b^^ 

est compare a une valeur limite bmax a 1' etape 29. Si 
bj_>bmax, le signal est considere comme trop stationnaire 

pour supporter de I'activite vocale. L' etape 28 precitee, 
qui revient a considerer que la trame ne comporte que du 
25 bruit, est alors executee. Si bj^^bmax a 1' etape 29, 

1' estimateur interne bi^ est calcule a 1' etape 33 selon : 
jbij = (1-Bm) , E^^-i -f Bm . ba^ ( 4 ) 

Dans cette formule, Bm represente un coefficient de mise a 
jour compris entre 0,90 et 1. Sa valeur differe selon 
30 I'etat d'un automate de detection d'activite vocale 
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(etapes 30 a 32) . Cet etat 5^_vj_ est celui determine lors 

du traitement de la trame precedente. Si 1' automate est 
dans' un etat de detection de parole (5^^-1=2 a I'etape 30), 

le coefficient Bm prend une valeur Bmp tres proche de 1 
5 pour que I'estimateur du bruit soit tres faiblement mis a 
jour en presence de parole. Dans le cas contraire, le 
coefficient Bm prend une valeur Bms plus faible, pour 
permettre une mise a jour plus significative de 
I'estimateur de bruit en phase de silence. A I'etape 34, 
10 I'ecart ba^-bij_ entre I'estimateur a long terme et 

I'estimateur interne du bruit est compare a un seuil e2 . 
Si le seuil s2 n'est pas atteint, I'estimateur a long 
terme ba^ est mis a jour avec la valeur de I'estimateur 

interne bi^^ a I'etape 35. Sinon, I'estimateur a long terme 

15 ha^ reste inchang^. On evite ainsi que de brutales 

variations dues a un signal de parole conduisent a une 
mise a jour de I'estimateur de bruit. 

Apres avoir obtenu les grandeurs p^, le module 15 

procede aux decisions d'activite vocale a I'etape 37. Le 
20 module 15 met d'abord a jour I'etat de 1' automate de 
detection selon la grandeur Pq calculee pour 1' ensemble de 

la bande du signal. Le nouvel etat 5^ de 1' automate depend 

de i'etat precedent 6^_-j_ et de pQ, de la maniere 
representee sur la figure 4. 
25 Quatre etats sont possibles : 5=0 detecte le 

silence, ou absence de parole ; 5=2 detecte la presence 
d'une activite vocale ; et les etats 5=1 et 5=3 sont des 
etats intermediaires de montee et de descente. Lorsque 
1' automate est dans I'etat de silence (S^^.^^O) , il y reste 

30 si Pq ne depasse pas un premier seuil SEl, et il passe 
dans I'etat de montee dans le cas contraire. Dans I'etat 
de montee (S^_-j^=l) , il revient dans I'etat de silence si 
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Pq est plus petit que le seuil SEl, il passe dans I'etat 
de parole si Pq est plus grand qu'un second seuil SE2 plus 

grand que le seuil SEl, et il reste dans I'etat de montee 
si SE1< Pq<SE2. Lorsque 1' automate est dans I'etat de 

5 parole (Sp^-i'=2)/ il y reste si Pq depasse un troisieme 

seuil SE3 plus petit que le seuil SE2, et il passe dans 
I'etat de descente dans le cas contraire, Dans I'etat de 
descente {5j^_-|=3), 1' automate revient dans I'etat de 

parole si Pq est plus grand que le seuil SE2, il revient 

10 dans I'etat de silence si pQ est en dega d'un quatrieme 

seuil SE4 plus petit que le seuil SE2, et il reste dans 
I'etat de descente si SE4<pQ<SE2. 

A I'etape 37, ie module 15 calcule egalement les 
degres d'activite vocale Yn dans chaque bande i>l. Ce 

15 degr6 y„ ^ est de preference un parametre non binaire, 
n / X 

c'est-a-dire que la fonction ^-<5(Pj^) est une fonction 
variant continument entre 0 et 1 en fonction des valeurs 
prises par la grandeur Pj_ . Cette fonction a par exemple 

1' allure representee sur la figure 5. 
20 Le module 16 calcule les estimations du bruit par 

bande, qui seront utilisees dans le processus de 
debruitage, en utilisant les valeurs successives des 
composantes : et des degres d'activite vocale y„ 

Ceci correspond aux etapes 40 a 42 de la figure 3. A 
25 I'etape 40, on determine si 1' automate de detection 
d'activite vocale vient de passer de I'etat de montee a 
I'etat de parole. Dans 1' affirmative, les deux dernieres 

estimations ^r)-l,i ^n-2,i pi^ec6demment calculees pour 

chaque bande i>l sont corrigees conformement a la valeur 

30 de 1' estimation precedente ^^-34' Cette correction est 

effectuee pour tenir compte du fait que, dans la phase de 
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montee (5=1), les estimations a long terme de I'energie du 
bruit dans le processus de detection d'activite vocale 
(etapes 30 a 33) ont pu etre calculees comme si le signal 
ne comportait que du bruit (Bin=Bms), de sorte qu'elies 
risquent d'etre entachees d'erreur. 

A i'etape 42, le module 16 met a jour les 
estimations du bruit par bande selon les formules : 

ou designe un facteur d'oubli tel que 0<A,g<l, La 

formule (6) met en evidence la prise en compte du degre 
d'activite vocale non binaire 

^n, 1 

Comme indique precedemment, les estimations a long 
terme du bruit B^^^ font I'objet d'une surestimation, par 

15 un module 45 (figure 1), avant de proceder au debruitage 
par soustraction spectrale non lineaire. Le module 45 

calcule le coefficient de surestimation a'^^_^ precedemment 

evoque, amsi qu'une estimation majoree B^^j^ qui correspond 

essentiellement a a-, • ^r. v • 

20 L' organisation du module de surestimation 45 est 

representee sur la figure 6. L' estimation majoree • est 

obtenue en combinant 1' estimation a long terme B„ et une 

mesure ABjlJ^^ 1^ variabilite de la composante du bruit 

dans la bande i autour de son estimation a long terme. 
25 Dans I'exemple considere, cette combinaison est, pour 
I'essentiel, une simple somme realisee par un additionneur 
46. Ce pourrait egalement Stre une somme ponderee. 

Le coefficient de surestimation a^^^ est egal au 
rapport entre la somme S^^^ + ^^n,T delivree par 
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1' additionneur 46 et 1' estimation a long terme retardee 
^n-x3fi (di^iseur 47), plafonn6 a une valeur limite ot^^j^/ 

parexemple a_-„=4 (bloc 48). Le retard t3 sert a corriger 
le cas echeant, dans les phases de montee (5=1), la valeur 
5 du coefficient de surestimation <^n,i' avant que les 
estimations a long terme aient ete corrigees par les 
etapes 40 et 41 de la figure 3 (par exemple t3=3) . 

L' estimation majoree B^^^ est finalement prise 

egale a a*^^^. S^_^3^^ (muitiplieur 49). 

10 La mesure AB^^^ de la variabilite du bruit refiete 

la variance de I'estimateur de bruit. Elle est obtenue en 
f onction des valeurs de S^^ ^ et de B^^j_ calculees pour un 

certain nombre de trames precedentes sur lesquelles le 
signal de parole ne presente pas d^activite vocale dans la 



15 bande i. C'est une fonction des ecarts 



calcules pour un nombre K de trames de silence (n-k<n) . 
Dans 1' exemple represente, cette fonction est simplement 
le maximum (bloc 50) . Pour chaque trame n, le degre 
d'activite vocale Yr^ ■; ^st compare a un seuil (bloc 51) 

11/ X 



20 pour decider si I'ecart 



, calcule en 52-53, doit 



ou non etre charge dans une file d'attente 54 de K 
emplacements organisee en mode premier entre-premier sorti 
(FIFO) . Si Y„ • ne depasse pas le seuil (qui peut etre 

egal a 0 si la fonction g() a la forme de la figure 5), la 
FIFO 54 n'est pas alimentee, tandis qu'elle I'est dans le 
cas contraire. La valeur maximale contenue dans la FIFO 54 

est alors fournie comme mesure de variabilite AB^^^ • 

La mesure de variabilite ^B^^[ peut, en variante, 
etre obtenue en fonction des valeurs £ (et non ^) et 
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^ni* precede alors de la meme maniere, sauf que la FIFO 



54 c.ontient non pas 



pour chacune des bandes 



i, mais plutot max 



Grace aux estimations independantes des 
5 fluctuations a long terme du bruit S^^^ et de sa 

variabiiite a court terme AbJ^^^ ' I'estimateur majore B^^j_ 

procure une excellente robustesse aux bruits musicaux du 
procede de debruitage. 

Une premiere phase de la soustraction spectrale 
10 est reaiisee par le module 55 represents sur la figure 1. 
Cette phase fournit/ avec la resolution des bandes i 

(l<i^I), la reponse en frequence ^ d^un premier filtre 
de debruitage, en fonction des composantes S^^^ et B^^y et 

des coefficients de surestimation a„ . Ce calcul peut 
15 etre effectue pour chaque bande i selon la formule : 

maxls^^^ - ^ki-^i ' ^nA 

<i = J—T 

ou x4 est un retard entier determine tel que t4^0 (par 
exemple x4=0) . Dans 1' expression (7), le coefficient 3^ 
represente, comme le coefficient )9p_^ de la formule (3), un 

20 plancher servant classiquement a eviter les valeurs 
negatives ou trop faibles du signal debruite.- 

De fagon connue (EP-A-0 534 837), le coefficient 
t 

de surestimation a^^^ pourrait etre remplace dans la 
formule (7) par un autre coefficient egal a une fonction 
25 de a^^j' et d' une estimation du rapport signal-sur-bruit 

(par exemple i/^n/i^' cette fonction etant decroissante 
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selon la valeur estimee du rapport signal-sur-bruit . Cette 

I 

fonction est alors egale a a^^^ pour les valeurs les plus 

faibles du rapport signal-sur-bruit. En effet, lorsque le 
signal est tres bruite^ il n' est a priori pas utile de 
5 diminuer le facteur de surestimation. Avantageusement, 
cette fonction decroit vers zero pour les valeurs les plus 
elevees du rapport signal/bruit. Ceci permet de proteger 
les zones les plus energetiques du spectre, ou le signal 
de parole est le plus signif icatif , la quantite scustraite 

l.D du signal tendant alors vers zero. 

Cette strategic pent etre affinee en I'appliquant 
de itianiere selective aux harmoniques de la frequence 
tonale (« pitch ») du signal de parole lorsque celui-ci 
presente une activite vocale. 

15 Ainsi, dans la realisation representee sur la 

figure 1, une seconde phase de debruitage est realisee par 
un module 56 de protection des harmoniques. Ce module 
calcule, avec la resolution de la transformee de Fourier, 

la reponse en frequence H^^^ d'un second * filtre de 

20 debruitage en fonction des parametres H^^j^, ^n,i' ^n,i' ^n' 
^n, i frequence tonale f^^F^/T^ calculee en dehors 

des phases de silence par un module d' analyse harmonique 
57. En phase de silence (5j^=0) , le module 56 n'est pas en 

service, c'est-a-dire que H^^f = h'^^j^ pour chaque 

25 frequence f d'une bande i. Le module 57 peut appliquer 
toute methode connue d' analyse du signal de parole de la 
trame pour determiner la p^riode T^, exprimee comme un 

nombre entier ou f ractionnaire d' echantillons, par exemple 
une methode de prediction lineaire. 
30 La protection apportee par le module 56 peut 

consister a effectuer, pour chaque frequence f appartenant 
a une bande i : 
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Hy = 1 si 



et 3ti entier / 
sinon 



f - T\-fr 



< Af / 2 



(8) 
(9) 



Af=Fg/N represente la resolution spectrale de la 

transformee de Fourier. Lorsque H^^f=l, la quantite 
soustraite de la composante Sj^ ^ sera nulle. Dans ce 

5 calcul, les coefficients de plancher (3^ (par exemple 

2 1 

Pi ~ Pi ' expriment le fait que certaines harmoniques de la 
frequence tonale fp peuvent etre masquees par du bruit, de 

sorte qu'il n'est pas utile de les proteger. 

Cette strategie de protection est de preference 
10 appliquee pour chacune des frequences les plus proches des 
harmoniques de fp, c'est-a-dire pour r| entier quelconque. 

Si on designe par 6fp la resolution f requentielle 

avec laquelle le module d' analyse 57 produit la frequence 
tonale estimee fp, c'est-a-dire que la frequence tonale 

15 reelle est comprise entre f -5f /2 et f +5f /2, alors 

I'ecart entre la Tj-ieme harmonique de la frequence tonale 
reelle est son estimation Tixfp (condition (9)) peut aller 

jusqu'a ±r|x5fp/2. Pour les valeurs elevees de r\, cet 6cart 

peut etre superieur ^ la demi-resolution spectrale Af/2 de 
20 la transformee de Fourier. Pour tenir compte de cette 
incertitude et garantir la bonne protection des 
harmoniques de la frequence tonale reelle, on peut 
proteger chacune des frequences de I'intervalle 



Tixfp- Tix5ip/2 , Tixip+ Tix5fp/2 
25 condition (9) ci-dessus par : 
3ti entier / jf - r|. f 



c^est-a-dire remplacer la 



< 5fp + Afj/2 (9') 
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Cette fagon de proceder (condition (9')) presente un 
interet particuiier lorsque les valeurs de r\ peuvent etre 
granjdes, notamment dans le cas ou le precede est utilise 
dans un systeme a bande elargie. 
5 Pour chaque frequence protegee, la reponse en 

frequence corrigee nf^^f peut etre egale a 1 comme indique 

ci-dessus, ce qui correspond a la soustraction d' une 
quantite nulle dans le cadre de la soustraction spectrale, 
c'est-a-dire a une protection complete de la frequence en 
10 question. Plus generalement , cette reponse en frequence 

corrigee ^^^f pourrait etre prise egale a une valeur 

comprise entre 1 et ^p^^f selon le degre de protection 

souhaite, ce qui correspond a la soustraction d'une 
quantite inferieure a celle qui serait soustraite si la 
15 frequence en question n' etait pas protegee. 

Les composantes spectrales S^^f d'un signal 

debruite sont calculees par un multiplieur 58 ; 

^If = "tf^n^f (10) 
Ce signal ^^^f est fourni a un module 60 qui 

20 calcule, pour chaque trame n, une courbe de masquage en 
appliquant un modele psychoacoustique de perception 
auditive par I'oreille hmnaine. 

Le phenom^ne de masquage est un principe connu du 
fonctionnement de I'oreille humaine. Lorsque deux 

25 frequences sont entendues simultanement, ii est possible 
que I'une des deux ne soit plus audible. On dit aiors 
qu'elle est masquee, 

II existe differentes methodes pour calculer des 
courbes de masquage. On peut par exemple utiliser celle 

30 developpee par J.D. Johnston («Transform Coding of Audio 
Signals Using Perceptual Noise Criteria », IEEE Journal on 
Selected Area in Communications, Vol. 6, No. 2, 
fevrier 1988) . Dans cette methode, on travaille dans 
I'echelle f requentielle des barks. La courbe de masquage 
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est vue coinme la convolution de la fonction d'etalement 
spectral de la membrane basilaire dans le domaine bark 
avec le signal excitateur, constitue dans la presente 

application par le signal S^^^ . La fonction d'etalement 

5 spectral peut etre modelisee de la maniere representee sur 
la fi'gure 7, Pour chaque bande de bark, on calcule la 
contribution des bandes inferieures et superieures 
convoluees par la fonction d' etalement de la membrane 
basilaire : 

ou les indices q et q' designent les bandes de bark 
(0<q,q'<Q), et S^^gt represente la moyenne des composantes 

2 

^rirf signal excitateur debruite pour les frequences 

discretes f appartenant i la bande de bark q' . 

15 Le seuil de masquage M„ est obtenu par le module 

II, q 

60 pour chaque bande de bark q, selon la formule : 

Mn,q=Cn,q/Rq (12) 
OU Rq depend du caractere plus ou moins voise du signal. 
De fagon connue, une forme possible de Rg est : 
20 lO.log^Q(Rg) = (A+q) .X + B. (1-x) (13) 

avec A=14,5 et B=5,5. % designe un degre de voisement du 

signal de parole, variant entre zero (pas de voisement) et 

1 (signal fortement voise) . Le param^tre % peut etre de la 
forme connue : 

OU SFM represente, en decibels, le rapport entre la 

moyenne arithmetique et la moyenne geometrique de 
I'energie des bandes de bark, et SFMj^^^=-60 dB, 

Le systeme de debruitage comporte encore un module 
30 62 qui corrige la reponse en frequence du filtre de 
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debruitage, en fonction de la courbe de masquage ^ 

Li/ q 

calculee par le module 60 et des estimations majorees s' 

calculees par le module 45. Le module 62 decide du niveau 
de debruitage qui doit reellement etre atteint. 
5 En comparant I'enveloppe de 1' estimation majoree 

du bruit avec I'enveloppe formee par les seuils de 
masquage M^^^, on decide de ne debruiter le signal que 

dans la mesure ou 1' estimation majoree B^^j- depasse la 

courbe de masquage. Ceci evite de supprimer inutilement du 
10 bruit masque par de la parole. 

La nouvelle reponse f f pour une frequence f 

appartenant a la bande i definie par le module 12 et a la 
bande de bark q, depend ainsi de I'ecart relatif entre 

1' estimation majoree B^^^ de la composante spectrale 

15 correspondante du bruit et la courbe de masquage M„ ^, de 

iif q 



la maniere suivante 



^1 / 0 



{14] 



En d'autres termes, la quantite soustraite d'une 
composante spectrale ^Ti,f' dans le processus de 
20 soustraction spectrale ayant la reponse f requentielle 
^n^f ' est sensiblement egale au minimum entre d'une part 

la quantite soustraite de cette composante spectrale dans 
le processus de soustraction spectrale ayant la reponse 

f requentielle B^^^f / et d' autre part la fraction de 

25 1' estimation majoree B^^^ de la composante spectrale 

correspondante du bruit qui, le cas echeant, depasse la 
courbe de masquage ^. 

i\f q 

La figure 8 illustre le principe de la correction 
appliquee par le module 62. Elle montre schematiquement un 
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exemple de courbe de masquage „ calculee sur la base 

Lif q 

des composantes spectrales S^^ f du signal debruite, ainsi 

que 1' estimation majoree B^^^ du spectre du bruit. La 

quantite finalement soustraite des composantes S^^ ^ sera 

5 celle representee par les zones hachurees, c'est-a-dire 

limitee a la fraction de 1' estimation majoree B^^ des 

composantes spectrales du bruit qui depasse la courbe de 
masquage , 

Cette soustraction est effectuee en multipliant la 

10 reponse f requentielle hI^^^ du filtre de debruitage par les 

composantes spectrales ^ du signal de parole 

(multiplieur 64) . Un module 65 reconstruit alors le signal 
debruite dans le domaine temporel, en operant la 
transformee de Fourier rapide inverse (TFRI) inverse des 

15 echantillons de frequence ^ delivres par le multiplieur 

64. Pour chaque trame, seuls les N/2=128 premiers 
echantillons du signal produit par le module 65 sont 

delivres comme signal debruite final s , apres 
reconstruction par addition-recouvrement avec les N/2=128 
20 derniers echantillons de la trame precedente (module 66) . 
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REVENDICATIONS 

1. Procede de detection d'activite vocaie dans un 

signal de parole numerique (s) traite par trames 
successives, dans lequel on soumet le signal de parole a 
5 un debruitage en tenant compte d' estimations du bruit 
compris dans le signal, mises a jour pour chaque trame 
d'une maniere dependante d' au moins un degre d'activite 
vocaie (Yn^i) determine pour ladite trame, caracterise en 
ce qu'cn procede a un debruitage a priori du signal de 
10 parole de chaque trame sur la base d' estimations du bruit 

^^n-il,i- ^n-xi,i ) obtenues lors du traitement d'au moins une 
trame precedente, et on analyse les variations d'energie 
du signal debruite a priori ( £p^^^ ) pour detecter le degre 
d'activite vocaie de ladite trame. 

^' Procede selon la revendication 1, dans lequel le 

degre d'activite vocaie (y^^^) est un param^tre non 
binaire . 

3. Procede selon la revendication 2, dans lequel le 
degre d'activite vocaie (j^^^) est une fonction, variant 

20 continument entre 0 et 1 . 

4. Procede selon I'une quelconque des revendications 
precedentes, dans lequel les estimations du bruit sont 
obtenues dans differentes bandes f requentielles du signal, 
le debruitage a priori est effectue bande par bande, et il 
est determine un degre d'activite vocaie (y^ ^) pour 
chaque bande. 



25 



5. Procede selon I'une quelconque des revendications 

precedentes, dans lequel on obtient une estimation du 
bruit B^^^ pour la trame n dans une bande de frequences i 
30 sous la forme : 
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oil ?ig est un facteur d'oubli compris entre ^ 1, ^ est 

le degre d'activite vocale determine pour la trame n dans 
5 la bande de frequences i, et S^^^ est une moyenne de 

1' amplitude du spectre du signal de parole de la trame n 
sur la bande i. 

6. Precede selon la revendication 5, dans lequel le 
signal debruite a priori Ep^^j^ relativement a une trame n 

10 et a une bande de frequences i est de la forme : 

~ ^n-114' ^n-xl ,i 

ou Hpj^^^ = , xl est un entier au moins 

egal a 1, x2 est un entier au moins egal a 0, <^'n-xli 
un coefficient de surestimation determine pour la trame 
15 n-Tl et la bande i, et pp^ est un coefficient positif. 

7. Precede selon I'une quelconque des revendications 
precedentes, dans lequel on calcule une estimation a long 

terme (^n,i' I'energie du signal debruite a priori 

^^Pn,i'' compare cette estimation a long terme a une 

20 estimation instantanee (ba) de cette energie, calculee sur 
la trame en cours, pour obtenir le degre d' activite vocale 
(y^^-^) de ladite trame. 
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